DeepMind的游戏理论与多代理团队研究多学科学习的几个方面,从计算近似值到游戏理论中的基本概念,再到在富裕的空间环境中模拟社会困境,并在困难的团队协调任务中培训3-D类人动物。我们小组的一个签名目的是使用DeepMind在DeepMind中提供的资源和专业知识,以深入强化学习来探索复杂环境中的多代理系统,并使用这些基准来提高我们的理解。在这里,我们总结了我们团队的最新工作,并提出了一种分类法,我们认为这重点介绍了多代理研究中许多重要的开放挑战。
translated by 谷歌翻译
我们介绍了DeepNash,这是一种能够学习从头开始播放不完美的信息游戏策略的自主代理,直到人类的专家级别。 Stratego是人工智能(AI)尚未掌握的少数标志性棋盘游戏之一。这个受欢迎的游戏具有$ 10^{535} $节点的巨大游戏树,即,$ 10^{175} $倍的$倍于GO。它具有在不完美的信息下需要决策的其他复杂性,类似于德克萨斯州Hold'em扑克,该扑克的游戏树较小(以$ 10^{164} $节点为单位)。 Stratego中的决策是在许多离散的动作上做出的,而动作与结果之间没有明显的联系。情节很长,在球员获胜之前经常有数百次动作,而Stratego中的情况则不能像扑克中那样轻松地分解成管理大小的子问题。由于这些原因,Stratego几十年来一直是AI领域的巨大挑战,现有的AI方法几乎没有达到业余比赛水平。 Deepnash使用游戏理论,无模型的深钢筋学习方法,而无需搜索,该方法学会通过自我播放来掌握Stratego。 DeepNash的关键组成部分的正则化NASH Dynamics(R-NAD)算法通过直接修改基础多项式学习动力学来收敛到近似NASH平衡,而不是围绕它“循环”。 Deepnash在Stratego中击败了现有的最先进的AI方法,并在Gravon Games平台上获得了年度(2022年)和历史前3名,并与人类专家竞争。
translated by 谷歌翻译
Unhealthy dietary habits are considered as the primary cause of multiple chronic diseases such as obesity and diabetes. The automatic food intake monitoring system has the potential to improve the quality of life (QoF) of people with dietary related diseases through dietary assessment. In this work, we propose a novel contact-less radar-based food intake monitoring approach. Specifically, a Frequency Modulated Continuous Wave (FMCW) radar sensor is employed to recognize fine-grained eating and drinking gestures. The fine-grained eating/drinking gesture contains a series of movement from raising the hand to the mouth until putting away the hand from the mouth. A 3D temporal convolutional network (3D-TCN) is developed to detect and segment eating and drinking gestures in meal sessions by processing the Range-Doppler Cube (RD Cube). Unlike previous radar-based research, this work collects data in continuous meal sessions. We create a public dataset that contains 48 meal sessions (3121 eating gestures and 608 drinking gestures) from 48 participants with a total duration of 783 minutes. Four eating styles (fork & knife, chopsticks, spoon, hand) are included in this dataset. To validate the performance of the proposed approach, 8-fold cross validation method is applied. Experimental results show that our proposed 3D-TCN outperforms the model that combines a convolutional neural network and a long-short-term-memory network (CNN-LSTM), and also the CNN-Bidirectional LSTM model (CNN-BiLSTM) in eating and drinking gesture detection. The 3D-TCN model achieves a segmental F1-score of 0.887 and 0.844 for eating and drinking gestures, respectively. The results of the proposed approach indicate the feasibility of using radar for fine-grained eating and drinking gesture detection and segmentation in meal sessions.
translated by 谷歌翻译
主动推断是一种特别是理解大脑的第一原理方法,通常是一种有情的药物,而自由能的单一命令。因此,它通过定义代理的生成模型并推断模型参数,动作和隐藏的状态信念,为对人工智能代理建模提供了一个计算帐户。但是,生成模型和隐藏状态空间结构的确切规范留给了实验者,其设计选择会影响代理的产生行为。最近,已经提出了深度学习方法,以从数据中学习隐藏的状态空间结构,从而从这项乏味的设计任务中减轻了实验者,但导致了一个纠缠的,不可解剖的状态空间。在本文中,我们假设这样一种学识渊博的,纠缠的状态空间并不一定会在自由能中产生最佳模型,并且在状态空间中执行不同的因素可以产生较低的模型复杂性。特别是,我们考虑了3D对象表示的问题,并专注于Shapenet数据集的不同实例。我们提出了一个分配对象形状,姿势和类别的模型,同时仍使用深层神经网络学习每个因素的表示形式。我们表明,当活跃代理在达到首选观察方面采用时,具有最佳分离属性的模型在采用时表现最好。
translated by 谷歌翻译
当研究不受限制的行为并允许小鼠离开笼子去驾驶复杂的迷宫时,小鼠在迷宫中表现出觅食行为,以寻求奖励,不时返回他们的家园,例如。喝。令人惊讶的是,当执行这样的``本垒打''时,老鼠不会遵循确切的反向路径,实际上,入口路径和家居路径几乎没有重叠。最近的工作提出了导航的层次主动推理模型,低级别模型对隐藏状态进行了推断,并提出了解释感官输入的姿势,而高级模型则可以推断出在位置之间移动,从而有效地构建环境地图。但是,使用此``MAP''进行计划,只允许代理找到它以前探索的轨迹,这与观察到的小鼠行为相去甚远。在本文中,我们探讨了通过使用低级生成模型来想象潜在的,但未发现的路径,探讨了将前路径纳入计划算法的方法。我们在网格世界环境中演示了概念证明,展示了代理如何使用从基于像素的观测值中学到的生成模型准确地预测地图中的新的,更短的路径。
translated by 谷歌翻译
每天在Spotify上发行超过60,000首歌曲,听众的注意力很大。在这方面,不能低估着迷人和诱人的封面艺术的重要性,因为它与歌曲的角色和艺术家的身份深深地纠缠在一起,并且仍然是引导人们发现音乐的最重要的门户之一。但是,设计封面艺术是一个非常有创造力,漫长甚至昂贵的过程,这可能令人生畏,尤其是对于非专业艺术家而言。因此,我们提出了一个新颖的深度学习框架,以生成以音频功能为指导的封面艺术。受VQGAN-CLIP的启发,我们的方法具有很高的灵活性,因为可以轻松更换单个组件而无需任何重新训练。本文概述了我们模型的架构细节,并讨论了它们从中出现的优化挑战。更具体地说,我们将利用遗传算法来克服不良的局部最小值和对抗性示例。我们发现我们的框架可以为大多数流派生成合适的封面,并且视觉功能适应了音频功能的变化。鉴于这些结果,我们认为我们的框架为音频引导的视觉生成任务中的扩展和更高级应用铺平了道路。
translated by 谷歌翻译
为了识别具有测量开关信号的开关系统,该工作旨在分析切换策略对估计误差的影响。假定识别数据是从全球渐近或边缘稳定的开关系统中收集的开关中,该系统是任意或受到平均停留时间约束的。然后由最小二乘(LS)估计器估算开关系统。为了捕获开关策略参数对LS估计误差的影响,在这项工作中开发了有限样本误差界。获得的误差边界表明,仅有稳定模式时,估计误差是开关参数的对数。但是,当有不稳定的模式时,随着开关参数的变化,估计误差界限可能会线性增加。这表明在存在不稳定模式的情况下,应正确设计开关策略,以避免估计误差的显着增加。
translated by 谷歌翻译
在本文中,我们呈现AIDA,它是一种积极推断的代理,可以通过与人类客户端的互动来迭代地设计个性化音频处理算法。 AIDA的目标应用是在助听器(HA)算法的调整参数的情况下,每当HA客户端对其HA性能不满意时,提出了最有趣的替代值。 AIDA解释搜索“最有趣的替代品”作为最佳(声学)背景感知贝叶斯试验设计的问题。在计算术语中,AIDA被实现为基于有源推断的药剂,具有预期的试验设计的自由能标准。这种类型的建筑受到高效(贝叶斯)试验设计的神经经济模型的启发,并意味着AIDA包括用于声学信号和用户响应的生成概率模型。我们提出了一种用于声学信号的新型生成模型作为基于高斯过程分类器的时变自自回归滤波器和用户响应模型的总和。已经在生成模型的因子图中实施了完整的AIDA代理,并且通过对因子图的变分消息来实现所有任务(参数学习,声学上下文分类,试验设计等)。所有验证和验证实验和演示都可以在我们的GitHub存储库中自由访问。
translated by 谷歌翻译
在本文中,提出了显式线性模型预测控制(MPC)的分离和结合晶格分段仿射(PWA)。训练数据是在感兴趣的领域均匀生成的,由状态样本和相应的仿射控制定律组成,基于晶格PWA近似值。还提出了对数据的重新采样,以确保晶格PWA近似与包含样品点作为内部点的唯一顺序(UO)区域相同。另外,在轻度假设下,两个晶格PWA的等效性确保了感兴趣域中的近似值无错误。提出了针对显式线性MPC的无统计误差近似的算法,并分析了整个过程的复杂性,这是相对于样品数量的多项式。通过两个仿真示例测试了所提出的近似策略的性能,结果表明,有了适量的样品点,我们可以构造与显式线性MPC的最佳控制法相等的晶格PWA近似值。
translated by 谷歌翻译
最近关于Covid-19的研究表明,CT成像提供了评估疾病进展和协助诊断的有用信息,以及帮助理解疾病。有越来越多的研究,建议使用深度学习来使用胸部CT扫描提供快速准确地定量Covid-19。兴趣的主要任务是胸部CT扫描的肺和肺病变的自动分割,确认或疑似Covid-19患者。在这项研究中,我们使用多中心数据集比较12个深度学习算法,包括开源和内部开发的算法。结果表明,合并不同的方法可以提高肺部分割,二元病变分割和多种子病变分割的总体测试集性能,从而分别为0.982,0.724和0.469的平均骰子分别。将得到的二元病变分段为91.3ml的平均绝对体积误差。通常,区分不同病变类型的任务更加困难,分别具有152mL的平均绝对体积差,分别为整合和磨碎玻璃不透明度为0.369和0.523的平均骰子分数。所有方法都以平均体积误差进行二元病变分割,该分段优于人类评估者的视觉评估,表明这些方法足以用于临床实践中使用的大规模评估。
translated by 谷歌翻译